其他
60+顶尖学者共撰!人工智能正加速量子科研
作为一个新兴的研究范式,AI4Science的独特之处在于它是一个巨大的、高度跨学科的领域。因此,对这一领域进行统一的技术处理是必要的,但也是具有挑战性的。
在7月17日发表在arXiv上的预印版文章中,一篇由来自MIT、剑桥、康奈尔、斯坦福、哈佛大学的共计64位学者合力撰写的文章,从技术上全面阐述了AI4Science的一个子领域,即量子、原子和连续系统的人工智能。这些领域旨在理解从亚原子(波函数和电子密度)、原子(分子、蛋白质、材料和相互作用)到宏观(流体、气候和地下)尺度的物理世界。
在Github上,研究团队还建立了论文的同名站点
链接:https://github.com/divelab/AIRS/tree/main/figures
谈到文章撰写的初衷,研究团队表示:“我们努力做到全面和统一,并希望这一初步努力能引发更多的社区兴趣和努力,以进一步推进 AI4Science。”
从历史上看,计算在加速自然科学发现方面的重要性一直为人所关注。将近一百年前的 1929 年,量子物理学家Paul Dirac指出:“大部分物理学和整个化学的数学理论所必需的基本物理定律是完全已知的,困难只在于精确应用这些定律会导致方程过于复杂而无法求解。”
在量子物理学中,人们知道薛定谔方程可以精确描述量子系统的行为;但由于其指数级的复杂性,只有非常小的系统才有可能求解这样的方程。在流体力学中,Navier-Stokes方程描述了流体流动的时空动力学,但求解这些实际有用大小的方程要求很高,尤其是在还需要计算效率的情况下。
量子态包含量子系统的所有信息,用波函数 |w ⟩ 表示。给定一组描述系统的变量(如粒子的位置和动量)作为输入,波函数 |w ⟩ 输出一个复数,表示系统测量每种可能结果的概率振幅。波函数 |w ⟩是一个高维函数,需要指数级的信息量才能完全定义。获取量子系统的波函数是一个具有挑战性的问题,被称为量子多体问题。波函数 |w⟩ 受薛定谔方程控制:
其中,Hˆ 是哈密顿算子,用于描述量子系统中粒子的运动和相互作用。
与这两个例子类似,许多自然科学问题的基本物理原理都是已知的,可以用一组数学方程来描述。关键的困难在于如何准确、高效地求解这些方程。最近的研究表明,深度学习方法可以加速计算这些方程的解。例如,深度学习方法已被用于计算量子物理学中薛定谔方程的解和流体力学中的Navier-Stokes方程。
在这些领域,模拟器被用来计算数学方程的解,其结果被用作训练深度学习模型的数据。一旦训练完成,这些模型就能以比模拟器快得多的速度进行预测。除了提高效率外,深度学习模型还表现出更好的分布外泛化(OOD)能力,其范围可扩展到更广泛的实际环境中:在这里,训练数据和未见数据通常遵循不同的分布。
量子自旋模型是一种多体模型,它描述了紧密结合在原子上的电子自旋在晶格上产生的相互作用自旋。这些自旋相互作用可导致系统的各种磁基态,如铁磁性、反铁磁性,甚至自旋液体,这是一种奇特的磁态,有望用于拓扑量子计算。
对量子自旋模型基态的理解,为了解现代科技不可或缺的磁性材料提供了宝贵的视角。
在量子自旋系统中,每个自旋可以处于两种状态:自旋上升↑、自旋下降 t 或它们的叠加。任何 N 个自旋的量子态都可以表示为 2^N 个自旋构型的叠加。所有的自旋组合构成了一个计算基础。具体来说,一个量子态可以写成:
其中,|(i )⟩表示 N 个自旋的自旋构型阵列,而 w ((i )) 是自旋构型|(i )⟩的波函数值。
研究人员的目标是利用神经网络对波函数进行参数化,并使用变分蒙特卡罗方法获得基态波函数。当然,学习量子自旋系统的基态也面临几个关键挑战:
- 保持对称性:在自旋系统中,学习到的基态应满足某些对称结构。量子自旋系统表现出丰富而有趣的对称性,而这些对称性在传统的深度学习任务(如图像对象检测)中并不存在。与图像不同,晶格是周期性网格,具有额外的对称性(如旋转和反射),使各种平面图案对相应的变换不变。虽然大多数功能强大的神经网络可以根据通用近似定理从数据中自动学习这些对称性,但由于求解空间巨大且难以优化,这通常很难实现。
将基态的对称性纳入神经网络结构,可以保证学习到的基态的对称性,提高数据效率,便于找到最优解。
- 学习符号结构(Sign Structures):在量子力学中,波函数的符号结构一般是指与量子态相关的复概率振幅的相位。学习基态的准确符号结构是一项挑战。有时,量子自旋系统的基态会表现出严重的符号问题,即自旋构型的微小变化会导致波函数符号的改变,从而使神经量子态难以收敛。
- 多种几何结构:大多数现有方法只适用于一维链或二维方形晶格。然而,磁性材料的晶格几何形状可能比简单的方形晶格丰富得多,并对其基态产生重大影响,从而影响其磁性能。这种丰富的几何形状所产生的磁沮度为更奇特的磁特性的出现提供了条件。
因此,扩展神经网络以处理各种晶格几何形状至关重要。
现在,神经量子态(NQS)已成为逼近量子多体系统基态的一种强大的变分矩阵。根据神经网络的类型,NQS 可分为五种不同的类别。
除了不同的神经网络类型会影响神经量子态的表达能力外,各种方法还重点解决了上述的一些难题,如上表所示。将基态的对称性纳入神经网络有助于缩小假设空间;有效捕捉波函数的符号结构对于神经量子态轻松收敛到最优解至关重要。
此外,开发可在多个晶格中发挥作用的单一神经量子态,可大大提高其实用性和通用性。
与传统的机器学习任务不同,用于确定量子自旋系统基态的模型不能在预先存在的数据集上进行训练。相反,模型是针对特定量子自旋系统进行训练的,该系统由晶格和哈密顿定义。在训练过程的每一步中,数据都是从量子系统的波函数(神经网络)中动态采样的——这种方法称为并发机器学习。
神经网络量子态在表示量子自旋系统的基态方面已经显示出前景,但仍有一些挑战需要进一步探索。首先,我们需要更具表现力和更高效的波函数解析,并能扩展到任意大的系统,这样才能发挥实际作用;随着系统规模的增大,自旋相互作用的复杂性也随之增加。其次,设计具有可证明的、足够表达力的神经波函数仍然是一个悬而未决的问题,尤其是对于表现出强相关性的量子系统。
第三,费米子晶格系统的波函数具有独特的反对称特性,这使得神经量子态难以有效地编码这种对称性。最后,在变分蒙特卡罗中,马尔可夫链蒙特卡罗(MCMC)通常用于从波函数确定的概率分布中对自旋配置进行采样,然后计算系统能量;或者使用自回归模型来表示量子态,绕过了 MCMC 采样,实现更高效、更精确的采样。
与量子自旋系统相比,量子力学中更普遍的情况是粒子可以在空间自由移动,例如电子在分子和固体中移动。研究多电子系统是量子化学的核心,在量子化学中,分子的性质是根据量子物理的第一性原理直接计算出来的:具体来说,准确描述分子的基态非常重要,因为基态决定了分子最稳定的状态,对了解分子的结构和化学性质非常重要。
在这里,我们主要讨论用量子蒙特卡罗(QMC)方法学习分子的基态;此外,类似的方法也被应用于超流体和均相电子气(homogeneous electron gas,HEG)。
用 QMC 寻找多电子基态有几个方面的挑战,包括满足费米子不对称约束、为单个电子(轨道)设计富有表现力的神经网络、实现良好的优化,以及有效学习多种几何形状的广义波函数以提高计算效率。
- 费米子不对称。费米子反对称性是量子物理的硬约束,电子的神经波函数必须严格遵守。如果不对反对称约束进行编码,变分保证就会失效,并导致不符合物理学原理的较低能量。虽然深度神经网络可以近似任意复杂的函数,但施加这种硬约束会带来独特的挑战。
- 轨道建模(Orbital modeling)。电子通过库仑势和泡利排斥相互作用,这可能导致波函数的高度非线性景观。因此,网络必须有很强的能力来模拟每个电子的波函数(称为轨道),同时考虑到与其他电子的相互作用。此外,量子物理学为我们提供了一些系统的先验知识,而这些知识可能很难直接用神经网络建模。因此,在轨道建模中融入物理学知识对于解决方案非常重要。
- 优化。虽然原则上我们可以利用 VMC 获得任意的近似精度,但要实现神经波函数对基态的有效优化却具有挑战性;部分原因在于问题的高精度要求。因此,有效的优化方法对于获得精确稳定的优化效果至关重要。
- 多视图几何。这存在一些独特的挑战。首先,需要特别考虑如何使学习到的波函数适应各种分子构型,包括不同的原子核位置以及不同数量的原子核和电子(如离子体系),同时尊重费米子的非对称性。然而,作为一个抽象概念,电子波函数并不表现出这种对称性。因此,我们面临的挑战是设计出能产生不变能量的广义波函数。要获得这种行为,需要设计打破对称的协变波函数。
第三,先验知识为我们提供了关于极限行为的额外约束。其中一个特性是大小一致性,即重复的非相互作用系统的能量是单一系统能量的两倍。在波函数中实现这种行为仍然是缩小函数搜索空间的一个挑战。最后,虽然波函数与能量直接相关,但从波函数中获取能量仍然很昂贵,因为需要数值积分。近似推理方法有望加快这一过程,并实现高分辨率 PES。
最近,基于 VMC 的神经网络在多电子系统基态建模方面表现出了强大的能力。经典方法(如 DFT 或 CCSD(T)),要么在强相关环境中(如键断裂时)导致不可靠的结果,要么随着系统规模的扩大而缩放。与深度神经网络相结合的 VMC 已被证明能够超越经典方法 。特别是,虽然 DFT 的扩展性比深度 VMC 方法好(O (N3) v.s. O (N4)),但深度 VMC 方法可以实现更高的精度。
另一方面,深度 VMC 方法比 CCSD(T) 更快,而且可以达到类似或更高的精度。此外,虽然 CCSD(T) 可用于较大的分子,但必须选择较小的基集。下表总结了面临的挑战和现有的方法。
与量子自旋系统,训练数据也是根据神经波函数定义的分布进行采样的。因此,无需事先生成数据集。相反,数据是根据几何体的原子坐标定义的。另一方面,由于优化过程的变分性质,精确度是通过平均能量和样本估计的标准偏差来评估的,能量越低、结果越精确。
常见的测试系统包括小原子或重原子(如 N 或 Fe)、小分子或大分子(如 N2 )、一些特殊的原子构型(如 H10)、化合物结构(如苯二聚体)等。
用 VMC 对多电子系统进行建模还面临一些挑战。首先,由于费米子不对称约束,大多数现有方法都使用斯莱特行列式。然而,通过行列式进行优化可能会带来额外的困难。除了斯莱特行列式之外,我们是否还能使用其他方法有效地实现费米子反对称,还有待观察。
其次,目前大多数方法都对波函数进行了明确建模。在实空间建立波函数模型类似于在生成式机器学习中建立概率密度模型。转向隐式建模可能是一个有趣的方向。
最后,最紧迫的挑战之一在于计算效率。由于计算复杂度与电子数 N 的比例为 O (N4),目前的计算最多只能局限于 80 个电子。这可以通过更高效的采样、更好的优化以及更有效的跨系统权重共享来实现。例如,深度学习库通过改进实现方式,在能量评估方面显示出良好的加速度。要将 QMC 方法扩展到更大的分子系统或材料,扩展是非常重要的。
在这里,光子盒仅列举人工智能与量子相关研究。在完整版263页文件中,研究团队还详细列举了AI对分子、蛋白质、密度函数理论等多个领域的影响。感兴趣的读者可以点击“阅读原文”,浏览完整版报告内容。
除了个别科学领域特有的挑战之外,人工智能科学领域的多个领域还面临着一些共同的技术挑战:分布外泛化(out-of-distribution generalization)、可解释性、由自我监督学习驱动的基础模型以及不确定性量化。这些挑战在人工智能和机器学习领域早已得到公认,但由于所涉及的数据和任务的独特性,它们在人工智能用于科学的背景下显得更加重要。
人工智能的发展为加速科学发现、推动创新和解决各领域的复杂问题带来了巨大希望。然而,要充分利用人工智能在科学研究方面的潜力,我们在教育、人才培养和公众参与方面都面临着新的挑战。为不断发展的人工智能科学领域提供支持,项目团队指出了最近取得的进展并呼吁三大范式转变:包括学科边界、社区和教育资源,构建新的知识和社区体系。
在最后的总结中,研究团队表示:“从我们和其他许多人的角度来看,科学人工智能为科学发现的新范式打开了一扇大门,是跨学科研究和创新中最令人兴奋的领域之一。”
当然,这一领域未来依然有持续发展空间:“人工智能的使命就是准确高效地解决这些科学问题,同时还要考虑许多其他参数,如人工智能模型的对称性、可解释性、分布外概括和因果关系、不确定性量化等。”
参考链接:[1]https://arxiv.org/abs/2307.08423[2]https://github.com/divelab/AIRS/tree/main/figures